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(57) Abstract: The invention relates to a method for introducing information into a data stream containing data related to spectral 
values which represent a short-term spectrum of an audio signal. According to said method, the data stream is first processed (10, 
16, 18), in order to obtain the spectral values for the short-term spectrum of the audio signal. In addition, the information to be 
^ introduced is subjected to a spread sequence (20) in order to obtain an expanded information signal which leads to the creation of a 
spectral representation of the expanded information signal (20). This representation is then weighted using a determined psychoa- 
\0 coustic noise energy which can be masked (20), in order to generate a weighted information signal, in which the energy level of 
^ the introduced information is substantially equal to or lies below the psychoacoustic masking threshold. The weighted information 
signal and the spectral values for the short-term spectrum are subsequently totalled (20) and then re-processed (22, 24, 26) in order 
CD to obtain a processed data stream which comprises both the audio information and the information to be introduced. In order for the 
information to be introduced without having to pass into the time domain, the block raster which underlies the short-term spectrum 
[j^ is not infringed, so that the introduction of a watermark does not lead to a tandem encoding effect. 

[Fortsetzung auf der nachsten Seite] 
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Veroffentlicht: Zur Erkldrung der Zweibuchstaben-Codes, und der anderen 

— Ohne internationalen Recherchenbericht und erneut zu Abkurzungen wird auf die Erkldrungen ("Guidance Notes on 
veroffentlichen nach Erhalt des Berichts. Codes and Abbreviations") am Anfang jeder reguldren Ausgabe 

der PCT-Gazette verwiesen. 



(57) Zusammenfassung: Ein erfindungsgemaBes Verfahren zum Einbringen von Informationen in einen Datenstrom, der Daten 
Uber Spektralwerte aufweist, die ein Kurzzeitspektrum eines Audiosignals darstellen, fiihrt zuerst eine Verarbeitung (10, 16, 18) 
des Datenstroms durch, urn die Spektralwerte des Kurzzeitspektrums des Audiosignals zu erhalten. AuBerdem werden die einzu- 
bringenden Informationen mit einer Spreizsequenz beaufschlagt (20), una ein gespreiztes Informationssignal zu erhalten, woraufhin 
eine spektrale Darstellung des gespreizten Informationssignals erzeugt wird (20), die dann mit einer ermittelten psychoakustisch 
maskierbaren Storenergie gewichtet wird (20), urn ein gewichtetes Informationssignal zu erzeugen, bei dem die Energie der einge- 
brachten Informationen im Wesentlichen gleich oder unterhalb der psychoakustischen Maskierungsschwelle liegt. Das gewichtete 
Informationssignal und die Spektralwerte des Kurzzeitspektrums des Audiosignals werden dann summiert (20) und anschlieBend 
wieder verarbeitet (22, 24, 26), um einen verarbeiteten Datenstrom zu erhalten, der sowohl die Audioinformationen als auch die 
einzubringenden Informationen umfaBt. Dadurch, daB die einzubringenden Informationen in den Datenstrom eingebracht werden, 
ohne daB in den Zeitbereich Ubergegangen werden muB, wird die Blockrasterung, die dem Kurzzeitspektrum zugrunde liegt, nicht 
angetastet, so daB das Einbringen eines Wasserzeichens zu keinen Tandem-Codiereffekten fuhrt. 
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Verfahren und Vorrichtung zum Einbringen von Informationen 
in einen Datenstrom sowie Verfahren und Vorrichtung zum 
Codieren eines Audiosignals 

Beschreibung 

Die vorliegende Erfindung bezieht sich allgemein auf Audio- 
signale und insbesondere auf das Einbringen von Informatio- 
nen in einen Datenstrom, der Spektralwerte aufweist, die ein 
Kurzzeitspektrum eines Audiosignals darstellen. Insbesondere 
auf dem Gebiet der Urheberrechtsschutzes fur Audiosignale 
dient die vorliegende Erfindung dazu, beispielsweise Urhe- 
berrechtsinf ormationen in ein Audiosignal moglichst unhorbar 
einzubringen . 

Mit zunehmender Verbreitung des Internets hat auch die Mu- 
sikpiraterie drastisch zugenommen. An vielen Stellen im In- 
ternet konnen Musikstiicke bzw. allgemein Audiosignale herun- 
tergeladen werden. In den allerwenigsten Fallen werden hier- 
bei Urheberrechte beachtet. Insbesondere wird sehr selten 
die Erlaubnis des Urhebers eingeholt, sein Werk zur Verfii- 
gung zu stellen. Noch seltener werden Gebuhren an den Urhe- 
ber bezahlt, die der Preis fur ein rechtmaBiges Kopieren 
sind. Dariiberhinaus findet ein unkontrolliertes Kopieren von 
Werken statt, was in den allermeisten Fallen ebenfalls ohne 
Berlicksichtigung von Urheberrechten geschieht. 

Wenn Musikstiicke iiber das Internet von einem Provider fur 
Musikstiicke rechtmaBig erworben werden, erzeugt der Provider 
iiblicherweise einen Header, in dem Copyright-Inf ormationen 
sowie beispielsweise eine Kundennummer eingebracht sind, wo- 
bei die Kundennummer eindeutig auf den aktuell vorliegenden 
Kaufer hinweist. Es ist ferner bekannt, Kopiererlaubnisin- 
f ormationen in diesen Header einzufugen, welche die ver- 
schiedensten Arten von Kopierrechten signalisieren , wie z. 
B. daB das Kopieren des aktuellen Stiicks vollstandig unter- 
sagt ist, daB das Kopieren des aktuellen Stiicks nur ein 
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einziges Mai erlaubt ist, daB das Kopieren des aktuellen 
Stiicks vollig frei ist, etc. 

Der Kunde verfugt liber einen Decodierer, der den Header ein- 
liest und unter Beachtung der erlaubten Handlungen bei- 
spielsweise nur eine einzige Kopie zulaBt und weitere Kopien 
verweigert . 

Dieses Konzept zur Beachtung der Urheberrechte funktioniert 
jedoch nur fur Kunden, die sich legal verhalten. 

Illegale Kunden haben ublicherweise ein wesentliches Poten- 
tial an Kreativitat, urn mit einem Header versehene Musik- 
stiicke zu "knacken" . Hier zeigt sich bereits der Nachteil 
der beschriebenen Vorgehensweise zum Schutz von Urheberrech- 
ten. Ein solcher Header kann einfach entfernt werden. Alter- 
nativ konnte ein illegaler Benutzer auch einzelne Eintrage 
in dem Header modif izieren, urn beispielsweise aus dem Ein- 
trag "Kopieren untersagt" einen Eintrag "Kopieren vollig 
frei" zu machen. Denkbar ist auch der Fall, daJ3 ein ille- 
galer Kunde seine eigene Kundennummer aus dem Header ent- 
fernt und dann das Musikstuck auf seiner oder einer anderen 
Homepage im Internet anbietet. Ab diesem Moment ist es nicht 
mehr moglich, den illegalen Kunden zu ermitteln, da er seine 
Kundennummer entfernt hat. Versuche, solche Verletzungen des 
Urheberrechts zu unterbinden, werden daher zwangslaufig ins 
Leere laufen, da die Kopierinf ormationen aus dem Musikstuck 
entfernt worden sind bzw. modif iziert worden sind, und da 
der illegale Kunde, der dies tat, nicht mehr ermittelt 
werden kann, urn ihn zur Verantwortung zu ziehen. Ware 
stattdessen eine sichere Einbringung von Inf ormationen in 
das Audiosignal vorhanden, so konnten staatliche Behorden, 
die Urheberrechtsverletzungen verfolgen, verdachtige Musik- 
stiicke im Internet ermitteln und beispielsweise die Be- 
nutzeridentif ikation solcher illegalen Stucke feststellen, 
um den illegalen Benutzern das Handwerk zu legen. 

Aus der WO 97/33391 ist ein Codierverf ahren zur Einbringung 
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eines nicht horbaren Datensignals in ein Audiosignal be- 
kannt. Dabei wird das Audiosignal, in das das nicht horbare 
Datensignal eingebracht werden soil, in den Frequenzbereich 
umgewandelt, urn mittels eines psychoakustischen Modells die 
Maskierungsschwelle des Audiosignals zu bestimmen. Das Da- 
tensignal, das in das Audiosignal eingebracht werden soli, 
wird mit einem Pseudorauschsignal multipliziert , um ein fre- 
quenzmaBig gespreiztes Datensignal zu schaffen. Das fre- 
quenzmaBig gespreizte Datensignal wird dann mit der psycho- 
akustischen Maskierungsschwelle gewichtet, derart, daB die 
Energie des f requenzmaBig gespreizten Datensignals immer un- 
terhalb der Maskierungsschwelle liegt. SchlieBlich wird das 
gewichtete Datensignal dem Audiosignal iiberlagert, wodurch 
ein Audiosignal erzeugt wird, in das das Datensignal unhor- 
bar eingebracht ist. Das Datensignal kann zum einen dazu 
verwendet werden, die Reichweite eines Senders zu ermitteln. 
Alternativ kann das Datensignal zur Kennzeichnung von Audio- 
signalen verwendet werden, um eventuelle Raubkopien ohne 
weiteres zu identif izieren, da jeder Tontrager beispielswei- 
se in Form einer CompactDisc ab Werk mit einer individuellen 
Kennung versehen wird. Weitere beschriebene Anwendungsmog- 
lichkeiten des Datensignals bestehen im Fernsteuern von 
Audiogeraten in Analogie zum "VPS"-Verf ahren beim Fernsehen. 

Dieses verfahren liefert bereits eine hohe Sicherheit gegen- 
iiber Musikpiraten, da sie zum einen unter Umstanden gar 
nicht wissen, daB das Musikstiick, das sie gerade vervielfal- 
tigen, gekennzeichnet ist. Daruberhinaus ist es nahezu un- 
moglich, ohne einen autorisierten Decodierer das Datensi- 
gnal, das unhorbar in dem Audiosignal vorhanden ist, zu ex- 
trahieren. 

Audiosignale liegen, wenn sie von einer CompactDisc stammen, 
als 16-Bit-PCM-Abtastwerte vor. Ein Musikpirat konnte bei- 
spielsweise die Abtastrate bzw. die Pegel oder Phasen der 
Abtastwerte manipulieren, um das Datensignal unlesbar, d. h. 
undecodierbar zu machen, wodurch die Urheberrechtsinf orma- 
tionen ebenfalls aus dem Audiosignal entfernt waren. Dies 
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wird jedoch nicht ohne signifikante QualitatseinbuBen mog- 
lich sein. SolchermaBen in Audiosignale eingebrachte Daten 
konnen daher auch in Analogie zu Banknoten als "Wasserzei- 
chen" bezeichnet werden. 

Das in der WO 97/33391 beschriebene Verfahren zur Einbrin- 
gung eines nicht horbaren Datensignals in ein Audiosignal 
arbeitet unter Verwendung der Audioabtastwerte , die als 
Zeitbereichs-Abtastwerte vorliegen. Dies macht es erf order- 
lich, daB Audiostucke, d. h. Musikstucke, Horspiele und ahn- 
liches, als Folge von zeitlichen Abtastwerten vorliegen miis- 
sen, urn mit einem Wasserzeichen versehen zu werden. Dies hat 
den Nachteil, daB dieses Verfahren nicht fur bereits kompri- 
mierte Datenstrome, die beispielsweise einer Verarbeitung 
nach einem der MPEG-Verf ahren unterzogen worden sind, einge- 
setzt werden kann. Dies bedeutet, daB ein Anbieter von Mu- 
sikstucken, der die Musikstucke vor der Auslieferung an den 
Kunden mit einem Wasserzeichen versehen mochte, die Musik- 
stucke als Folge von PCM-Abtastwerten speichern muB. Dies 
fuhrt dazu, daB ein Anbieter fur Musikstucke eine uberaus 
groBe Speicherkapazitat zur Verfiigung haben muB, Es ware je- 
doch wiinschenswert, die auBerst effektiven Audio komprimie- 
rungsverfahren bereits zum Speichern der Audiodaten bei dem 
Anbieter einzusetzen . 

Selbstverstandlich konnte ein Anbieter fiir Audiodaten der 
oben beschriebenen Art einfach hergehen, samtliche Musik- 
stucke beispielsweise unter Verwendung des Standards MPEG-2 
AAC 13818-7 komprimieren und dann, bevor das Audiostuck mit 
einem Wasserzeichen versehen werden soil, wieder vollstandig 
dekomprimieren, urn wieder eine Folge von Audio-Abtastwerten 
("Samples") zu haben, die dann in eine bekannte Vorrichtung 
zum Einbringen eines nicht horbaren Datensignals eingespeist 
werden, urn ein Wasserzeichen einzubringen . Dies bringt je- 
doch einen wesentlichen Aufwand dahingehend mit sich, daB 
vor dem Einbringen der Inf ormationen in das Audiosignal eine 
vollstandige Dekomprimierung bzw. Decodierung erforderlich 
ist. Eine solche Decodierung kostet Zeit und Geld. Wesent- 
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lich gravierender ist jedoch die Tatsache, daB bei einer 
solchen Vorgehensweise Tandem-Codieref f ekte auftreten. 

Ein weiterer Nachteil dieser Vorgehensweise besteht darin, 
daB aufgrund der Tatsache, daB das Wasserzeichen in die 
PCM-Daten eingebracht wird, keine Sicherheit daruber gegeben 
ist, ob das Wasserzeichen nach einer Audio-Komprimierung 
noch vorhanden ist. Wenn mit Wasserzeichen versehene PCM- 
Daten mit relativ niedriger Bitrate codiert werden, fuhrt 
der Codierer beim Quantisieren aufgrund der relativ niedri- 
gen Bitrate viel Quantisierungsrauschen ein, das im extremen 
Fall dazu fiihren wird, daB kein Wasserzeichen mehr decodiert 
werden kann. Problematisch ist also, daB bei dieser Vorge- 
hensweise die Bitrate des Audiocodierers , der die mit Was- 
serzeichen versehenen PCM-Daten codiert, nicht von vornehe- 
rein bekannt ist, weshalb keine sichere Steuerung des Ver- 
haltnisses zwischen Wasserzeichenenergie und Storenergie 
aufgrund des Quantisierungsrauschens moglich ist. 

Es ist bekannt, daB Audio-Codierverf ahren nach einem der 
MPEG-Standards keine verlustlosen Codierverf ahren, sondern 
verlustbehaf tete Codierverf ahren sind. Biteinsparungen im 
Vergleich zur direkten Ubertragung von Audio-Abtastwerten im 
Zeitbereich werden zu einem GroBteil dadurch erreicht, daB 
psychoakustische Maskierungsef f ekte ausgenutzt werden. Ins- 
besondere wird fur einen Block von beispielsweise 2048 Au- 
dio-Abtastwerten die psychoakustische Maskierungsschwelle 
als Funktion der Frequenz ermittelt, woraufhin nach einer 
Zeit-Frequenz-Transformation der Audio-Abtastwerte die Quan- 
tisierung der Spektralwerte, die das Kurzzeitspektrum ent- 
halt, unter Beriicksichtigung dieser psychoakustischen Mas- 
kierungsschwelle durchgefuhrt wird. Anders ausgedriickt wird 
die Quantisierer-Schrittweite so gesteuert, daB die durch 
das Quantisieren eingefiigte Storenergie kleiner oder gleich 
der psychoakustischen Maskierungsschwelle ist. In Bereichen 
des Audiosignals, in denen das VerdeckungsmaB , d. h. das 
Verhaltnis der Audiosignalenergie und der psychoakustischen 
Maskierungsschwelle, sehr klein ist, wie z. B. in sehr 
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rauschhaften Bereichen des Audiosignals , miissen die Spek- 
tralwerte lediglich grob quantisiert werden, ohne daB es 
nach einem anschliefienden Decodieren zu horbaren Storungen 
kommt. In anderen Bereichen, in denen das Audiosignal sehr 
tonal ist, muJ3 feiner quantisiert werden, derart, daB eine 
relativ kleine Storenergie aufgrund des Quantisierens ent- 
steht, da das VerdeckungsmaB hier sehr groJ3 ist. 

Aus dem Vorstehenden wird deutlich, daJ3 aufgrund der Quanti- 
sierungsvorgehensweise Inf ormationen des ursprunglichen Au- 
diosignals verloren gehen. Dies spielt noch keine Rolle, 
wenn das quantisierte Audiosignal wieder decodiert wird, da 
die Storenergie aufgrund des Quantisierens so verteilt wur- 
de, da£ sie unter der psychoakustischen Maskierungsschwelle 
bleibt und somit, wenn ein ideales psychoakustisches Modell 
verwendet wurde, unhorbar sein wird. Diese Betrachtungen 
gelten jedoch immer nur fur ein bestimmtes Kurzzeitspektrum 
bzw. fur einen Block von z. B. 2.048 auf einanderf olgenden 
Audio-Abtastwerten . Nach der Decodierung enthalt der Block 
von Audio-Abtastwerten jedoch keine Inf ormationen mehr da- 
riiber, wie die Blockbildung durchgefuhrt wurde. Wenn die 
bekannte Vorrichtung zum Einbringen von Inf ormationen ver- 
wendet wird, die in den allermeisten Fallen eine bestimmte 
Verzogerung im Vergleich zu einem Audio-Codierer , der keine 
inf ormationen einbringt, hat, kann nicht davon ausgegangen 
werden, daB rein zufallig die gleiche Blockeinteilung statt- 
findet. Stattdessen werden die Blockeinteilung, die Kurz- 
zeit-Spektrum-Bildung und die Quantisierung in einem vollig 
anderen Blockraster stattfinden. Eine erneute Decodierung 
wird dann iiblicherweise zu deutlich horbaren Storungen 
fuhren, da sie sich nicht auf das gleiche Kurzzeitspektrum 
sondern auf unterschiedliche Kurzzeitspektren bezieht. 
Dieses Auftreten von horbaren Storungen durch zwei Codie- 
rer/Decodierer-Stufen aufgrund ihrer unterschiedlichen Ein- 
teilung des Stroms von Audio-Abtastwerten in Blocke wird als 
Tandem-Codieref fekt bezeichnet. 



Es sei hier darauf hingewiesen, daB im allgemeinen Fall 
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durch das Einbringen des nicht-horbaren Datensignals Stor- 
energie in das Audiosignal eingefiihrt wird, das ohnehin 
schon Storenergie aufgrund des nicht unendlich feinen Quan- 
tisierungsverf ahrens hat. Das Einbringen des nicht-horbaren 
Datensignals fiihrt damit tendenziell zu einer Verschlechte- 
rung der Audioqualitat , es sei denn, daJ3 besondere Vorkeh- 
rungen unternommen werden. In diesem Zusammenhang ist eine 
zusatzliche Einfuhrung von Storenergie aufgrund der Tan- 
dem-Codieref fekte, die vorstehend ausgefiihrt wurden, umso 
weniger wiinschenswert , da dieser Qualitatsverlust einfach 
systembedingt ohne Nutzen auftritt, wahrend kleine Quali- 
tatsverschlechterungen aufgrund des Wasserzeichens eher in 
Kauf genommen werden, da das Wasserzeichen einen Nutzen mit 
sich bringt. Tandem-Codieref fekte bringen jedoch nur Storun- 
gen, aber iiberhaupt keinen Nutzen mit sich. 

Die Aufgabe der vorliegenden Erfindung besteht darin, ein 
Konzept zu schaffen, das es ermoglicht, Audiostiicke mit ei- 
nem Wasserzeichen zu versehen, wahrend die Auswirkungen des 
Wasserzeichens auf die Audioqualitat moglichst gering sein 
sollen. 

Diese Aufgabe wird durch ein Verfahren zum Einbringen von 
Inf ormationen in einen Datenstrom nach Patentanspruch 1, 
durch ein Verfahren zum Codieren eines Audiosignals nach Pa- 
tentanspruch 11 oder 12 , durch eine Vorrichtung zum Einbrin- 
gen von Inf ormationen nach Patentanspruch 13 und durch eine 
Vorrichtung zum Codieren eines Audiosignals nach Patentan- 
spruch 15 oder Patentanspruch 16 gelost. 

Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, 
daJ3 davon abgegangen werden mufl, vor dem Einbringen des Was- 
serzeichens eine vollstandige Decodierung durchzuf uhren . 
Stattdessen wird erf indungsgemaB ein Datenstrom, der Spek- 
tralwerte aufweist, die ein Kurzzeitspektrum eines Audiosi- 
gnals darstellen, lediglich teilweise "entpackt " , bis die 
Spektralwerte vorliegen. Die Entpackung ist jedoch keine 
vollstandige Decodierung sondern lediglich eine teilweise 
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Decodierung, bei der die Informationen liber die Blockbildung 
bzw. das im ursprunglichen Codierer eingesetzte Blockraster 
nicht angetastet werden. 

Dies wird dadurch erreicht, daB das erf indungsgemaBe Verfah- 
ren mit Spektralwerten und nicht mit zeitlichen Abtastwerten 
(Samples) durchgeflihrt wird. Die Informationen, die in das 
Audiosignal eingebracht werden sollen, werden im Sinne eines 
Spread-Spectrum-Modulation mit einer Spreizsequenz beauf- 
schlagt, urn ein gespreiztes Inf ormationssignal zu erhalten. 
AnschlieBend wird eine spektrale Darstellung des gespreizten 
Inf ormationssignals beispielsweise durch eine Filterbank, 
eine FFT, einer MDCT oder ahnliches erzeugt, urn ein spektra- 
les gespreiztes Inf ormationssignal zu erhalten. Nun wird ei- 
ne psychoakustisch maskierbare Storung als Funktion der Fre- 
quenz fur das Kurzzeitspektrum des Audiosignals ermittelt, 
urn dann das spektrale gespreizte Inf ormationssignal unter 
Verwendung der ermittelten Storenergie zu gewichten, so daB 
ein gewichtetes Inf ormationssignal erzeugt werden kann, des- 
sen Energie im wesentlichen gleich oder unterhalb der psy- 
choakustischen Maskierungsschwelle liegt. Daran anschlieBend 
wird das gewichtete Inf ormationssignal mit den Spektralwer- 
ten des Kurzzeitspektrums des Audiosignals summiert, urn Sum- 
men-Spektralwerte zu erhalten, die das Kurzzeitspektrum des 
Audiosignals und zusatzlich die eingebrachten Informationen 
umfassen. SchlieBlich werden die Summen-Spektralwerte wieder 
verarbeitet, urn einen verarbeiteten Datenstrom zu erhalten, 
der die Daten uber die Spektralwerte des Kurzzeitspektrums 
des Audiosignals und die einzubringenden Informationen um- 
faBt. Im Falle eines MPEG-AAC-Codierers wird das Verarbeiten 
der Summen-Spektralwerte wieder das Quantisieren und Entro- 
pie-Codieren beispielsweise unter Verwendung eines Huffman- 
Codes zum Gegenstand haben. 

Es sei darauf hingewiesen, daB dadurch nicht die Blockraste- 
rung, die der urspriingliche Codierer festgelegt hat, der den 
Datenstrom erzeugt hat, angetastet wird. Dadurch entstehen 
keine Tandem-Ef f ekte , die zu einem Verlust der Audioqualitat 
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fiihren wurden. Dariiberhinaus wird es bevorzugt, daJ3 bei der 
nach dem Gewichten erfolgenden Verarbeitung, die ein Quanti- 
sieren umfaBt, die gleiche bzw. die gleichen Quantisierungs- 
schrittweite(n) wie im ursprunglichen Bitstrom verwendet 
wird bzw. werden, was den Vorteil mit sich bringt, daB die 
sehr rechenaufwendigen Iterationsschleifen des Quantisierers 
nicht erneut berechnet werden mlissen. Ferner treten keine 
Tandem-Codier-Ef f ekte auf , die ansonsten unvermeidbar waren, 
da im Falle einer erneuten Berechnung mehr oder weniger 
stark abweichende Quantisiererschrittweiten auftreten konn- 
ten. 

Das erf indungsgemaBe Einbringen eines Wasserzeichens direkt 
in einen Datenstrom ermoglicht beispielsweise das Einbringen 
einer Kundennummer wahrend der Auslieferung der Musik an ei- 
nen Kunden, da das Verfahren auf modernen Personalcomputern 
in mehrfacher Echtzeit ablaufen kann, da u. a. zusatzlich 
auf die aufwendige Frequenz-Zeit-Transf ormation verzichtet 
werden kann, die bei einer vollstandigen Decodierung erfor- 
derlich sein wiirde. 

Ein weiterer Vorteil der vorliegenden Erfindung besteht dar- 
in, daJ3 der Musikanbieter , d. h. der Musikprovider , nicht 
mehr die PCM-Abtastwerte speichern muB, sondern vorcodierte 
Datenstrome speichern kann, was im Speicherplatz durchaus 
einen Faktor in der GroBenordnung von 12 mit sich bringen 
kann, und da/3 der Provider trotzdem kundenspezif ische Was- 
serzeichen einbringen kann, ohne daB zusatzlich Tandem-Co- 
diereffekte auftreten wurden, die einen Audioqualitatsver- 
lust zur Folge hatten. 

Das erf indungsgemaBe Verfahren kann einfach implementiert 
werden, da nur eine zusatzliche Zeit/Frequenz-Transf ormation 
des gespreizten Inf ormationssignals erforderlich ist. Ein 
weiterer wesentlicher Vorteil besteht darin, daB das erfin- 
dungsgemaBe Verfahren eine gute Interoperabilitat besitzt, 
d. h. daB Standard-Datenstrome verarbeitet werden konnen, 
und daB fur Wasserzeichen gemaB den bekannten Verfahren und 
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fiir Wasserzeichen gemaB dem erf indungsgemaBen Verfahren der 
gleiche Wasserzeichendecodierer verwendet werden kann. 
SchlieBlich besteht ein weiterer Vorteil darin, daB ein Au- 
diocodierer das Wasserzeichen nicht mehr ausloschen kann, da 
eine genaue Steuerung des Verhaltnisses zwischen Quantisie- 
rungsrauschen und Wasserzeichenenergie besteht* 

Es sei darauf hingewiesen, daB es selbstverstandlich moglich 
ist, das Wasserzeichen unbefugt wieder zu entfernen, wenn 
der mit einem Wasserzeichen versehene Datenstrom decodiert 
wird und dann wieder codiert wird, jedoch nun mit niedriger 
Bitrate. In diesem Fall wird die durch den Quantisierer ein- 
gefiihrte Storenergie die Wasserzeichenenergie ubersteigen, 
so daB dann kein Wasserzeichen mehr aus dem Audiosignal ex- 
trahiert werden kann. Dies ist jedoch unproblematisch, da 
die Audioqualitat des Audiosignals aufgrund des hohen Quan- 
tisierungsrauschen derart stark abgenommen hat, daB ein sol- 
ches schlechtes Audiosignal auch nicht mehr geschutzt werden 
muB. Ist namlich in einem Audiosignal das Wasserzeichen zer- 
stort, so ist auch seine Qualitat zerstort. 

Die psychoakustisch maskierbare Storenergie kann auf ver- 
schiedene Arten und Weisen ermittelt werden. Eine erste Op- 
tion besteht darin, zum Ermitteln der psychoakustisch mas- 
kierbaren Storenergie ein psychoakustisches Modell einzu- 
setzen, das aus dem Kurzzeitspektrum die psychoakustische 
Maskierungsschwelle als Funktion der Frequenz erzeugt. Es 
existiert eine Vielzahl von psychoakustischen Modellen, wo- 
bei hier die psychoakustischen Modelle besonders von Vorteil 
sind, die ohnehin mit Spektralwerten des Kurzzeitspektrums 
arbeiten, da diese Spektralwerte direkt aufgrund des teil- 
weisen Entpackens des Datenstroms vorliegen. Alternativ kon- 
nen jedoch auch psychoakustische Modelle zum Einsatz kommen, 
die fiir Zeitbereichsdaten ausgestaltet sind, wobei hier im 
Gegensatz zu der oben beschriebenen Option eine Frequenz- 
Zeit-Transf ormation erforderlich sein wlirde. Obwohl die Mog- 
lichkeit des Berechnens eines psychoakustischen Modells, urn 
die psychoakustische Maskierungsschwelle des Kurzzeitspek- 
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trums zu erhalten, relativ rechenzeitaufwendig ist, liefert 
jedoch bereits diese Moglichkeit den entscheidenden Vorteil, 
daJ3 keine Tandem-Codieref f ekte erzeugt werden, da die Block- 
rasterung nicht angetastet wird. 

Eine weitere, im Rechenzeitauf wand giinstigere Option zum Er- 
mitteln der psychoakustisch maskierbaren Storenergie besteht 
darin, daB der Datenstrom derart erzeugt worden ist, daB er 
neben den Spektralwerten und den ublichen Seiteninf orma- 
tionen auch fur jedes Kurzzeitspektrum die psychoakustische 
Maskierungsschwelle als Funktion der Frequenz enthalt. Ein 
Ermitteln der psychoakustisch maskierbaren Storenergie funk- 
tioniert dann einfach durch Extrahieren der im Datenstrom 
iibertragenen psychoakustischen Maskierungsschwelle. Bei die- 
ser Moglichkeit und der vorher beschriebenen Moglichkeit, 
bei der das psychoakustische Maskierungsmodell berechnet 
wird, ist die psychoakustisch maskierbare Storenergie die 
psychoakustische Maskierungsschwelle selbst. Nachteilig an 
dem Verfahren des Ubertragens der psychoakustischen Maskie- 
rungsschwelle im Datenstrom ist die Tatsache, daB ein Spe- 
zial-Audiocodierer benotigt wird, da bei ublichen Audio-Co- 
dierern die psychoakustische Maskierungsschwelle nicht uber- 
tragen wird, sondern lediglich die Spektralwerte und die 
entsprechenden Skalenf aktoren. In geschlossenen Systemen ist 
jedoch Kompatibilitat zu Standard-Datenstromen nicht er- 
forderlich. Hier kann diese Option daher mit einfachem Auf- 
wand und rechenzeitgiinstig implementiert werden. 

Eine weitere Moglichkeit besteht darin, einen Spezial-Audio- 
codierer vorzusehen, dessen Quantisierer immer so arbeitet, 
daB das Quantisierungsrauschen um einen vorbestimmten Betrag 
geringer als die psychoakustische Maskierungsschwelle ist. 
Dies bedeutet, daB der Codierer so ausgelegt ist, daB sein 
Quantisierer etwas feiner quantisiert, als er eigentlich 
muBte, derart, daB zusatzliche Storenergie hinzugefugt wer- 
den kann, ohne daB eine Storung horbar wird. Diese zusatz- 
liche Storenergie kann dann beim Einbringen von Informatio- 
nen in den Datenstrom "aufgebraucht" werden, um die Informa- 
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tionen einzubringen . Im Falle eines optimalen psychoakusti- 
schen Modells flihrt diese Moglichkeit zu einem Datenstrom 
mit eingebrachtem Wasserzeichen, der uberhaupt keine Quali- 
tatsverschlechterung erlitten hat. Nachteilig an diesem Ver- 
fahren ist ebenso wie beim direkten Ubertragen der psycho- 
akustischen Maskierungsschwelle die Tatsache, daJ3 dieses 
Verfahren nicht mit ublichen Codierern kompatibel ist. 

Eine weitere Moglichkeit zum Ermitteln der psychoakustisch 
maskierbaren Storenergie besteht darin, die tatsachlich 
durch das Quantisieren des Codierers, der den Datenstrom 
erzeugt hat, eingebrachte Storenergie zu ermitteln und 
daraus die psychoakustisch maskierbare Storenergie , die die 
Inf ormationen beim Gewichten erhalten werden, abzuleiten. 
Diese Option geht davon aus, daB der Codierer so quantisiert 
hat, daB die Storenergie unter der psychoakustischen Maskie- 
rungsschwelle oder lediglich knapp dariiber gelegen hat. Die- 
ses Verfahren kommt ebenfalls wie das als erste Moglichkeit 
beschriebene Verfahren mit den Standard-Bitstromen aus, da 
lediglich die Spektralwerte und die Skalenf aktoren, die 
beide im Datenstrom vorhanden sind, benotigt werden, urn die 
psychoakustisch maskierbare Storenergie zu erhalten. Aus den 
Skalenf aktoren kann die SchrittgroBe des Quantisierers , der 
dem entsprechenden Skalenf aktor zugeordnet ist, ermittelt 
werden, urn damit die in einem Skalenf aktorband eingebrachte 
Storenergie zu errechnen, die typischerweise gleich der psy- 
choakustischen Maskierungsschwelle sein wird oder darunter 
liegen wird. Die beim Gewichten verwendete psychoakustisch 
maskierbare Storenergie fur die eingebrachten Inf ormationen 
kann gleich der Quantisierungsstorenergie sein, sie kann 
aber auch einen Faktor zwischen groBer als Null und kleiner 
als Eins haben, wobei ein Faktor naher bei Null zu weniger 
horbaren Storungen aufgrund des Wasserzeichens fiihren wird, 
aber beim Extrahieren problematischer sein konnte als ein 
Faktor naher bei Eins. 

Bevorzugte Ausf iihrungsbeispiele der vorliegenden Erfindung 
werden nachfolgend bezugnehmend auf die beiliegenden Zeich- 
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nungen detailliert erlautert, Es zeigen: 

Fig. 1 ein Blockdiagramm einer erf indungsgemaBen Vorrich- 
tung zum Einbringen von Inf ormationen in einen Da- 
tenstrom; 

Fig. 2 ein detailliertes Blockdiagramm der Wasserzeichen- 
einrichtung von Fig. 1; 

Fig. 3a eine schematische Darstellung eines Verfahrens zum 
Ermitteln der maskierbaren Storenergie unter Ver- 
wendung eines psychoakustischen Modell; 

Fig. 3b eine schematische Darstellung eines Verfahrens zum 
Ermitteln der maskierbaren Storenergie, wenn die 
psychoakustische Maskierungsschwelle im Datenstrom 
ubertragen wird; 

Fig. 3c eine schematische Darstellung eines Verfahrens zum 

Ermitteln der maskierbaren Storenergie, wenn die 

Storenergie unter Kenntnis der Spektralwerte und 
der Skalenf aktoren geschatzt wird; 

Fig. 3d eine schematische Darstellung eines Verfahrens zum 
Ermitteln der psychoakustisch maskierbaren Stor- 
energie, wenn im Datenstrom Energie fur das Wasser- 
zeichen freigehalten wird; und 

Fig. 4 ein Blockdiagramm eines erf indungsgemaBen Audioco- 
dierers, der entweder die psychoakustische Maskie- 
rungsschwelle in den Datenstrom schreibt, oder den 
vorbestimmten Betrag fur das in Fig. 3d beschrie- 
bene Verfahren in den Datenstrom schreibt und des- 
sen Quantisierer entsprechend gesteuert ist. 



Bevor detaillierter auf die einzelnen Figuren eingegangen 
wird, wird der systemtheoretische Hintergrund der vorliegen- 
den Erfindung kurz beleuchtet. Generell darf das Einbringen 
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der Inf ormationen in das Audiosignal zu keiner bzw. nur ei- 
ner sehr schwer horbaren Qualitatsverschlechterung des 
Audiosignals fiihren. Urn festzustellen, wieviel Energie das 
Signal , das die einzubringenden Inf ormationen darstellt, ha- 
ben darf, wird unter Verwendung eines psychoakustischen Mo- 
dells die Maskierungsschwelle des Audiosignals fortlaufend 
berechnet. Die f requenzselektive Berechnung der Maskierungs- 
schwelle unter Verwendung beispielsweise der kritischen Ban- 
der sowie eine Vielzahl weiterer psychoakustischer Modelle 
sind in der Technik bekannt. Beispielhaft wird auf den Stan- 
dard MPEG2-AAC (ISO/IEC 13818-7) verwiesen. 

Das psychoakustische Modell fuhrt zu einer Maskierungs- 
schwelle fur ein Kurzzeitspektrum des Audiosignals. Ubli- 
cherweise wird die Maskierungsschwelle liber der Frequenz va- 
riieren. Per Definition wird angenommen, daB ein in das 
Audiosignal eingebrachtes Signal dann unhorbar sein wird, 
wenn die Energie dieses Signals unterhalb der Maskierungs- 
schwelle ist. Die Maskierungsschwelle hangt stark von der 
Zusammensetzung des Audiosignals ab. Rauschhafte Signale ha- 
ben eine hohere Maskierungsschwelle als sehr tonale Signale. 
Die Energie des Signals , das in das Audiosignal eingebracht 
wird, variiert daher stark iiber der Zeit. Ublicherweise wird 
zum Decodieren der in ein Audiosignal eingebrachten Informa- 
tionen ein bestimmtes Signal/Rausch-Verhaltnis benotigt. Da- 
bei kann es vorkommen, daB bei sehr tonalen Audiosignalab- 
schnitten die Energie des zusatzlich eingebrachten Signals 
derart gering wird, daB das Signal/Rausch-Verhaltnis zum 
sicheren Decodieren nicht mehr ausreicht. Ein Decodierer 
kann daher in solchen Bereichen einzelne Bits nicht mehr 
korrekt decodieren. Systemtheoretisch gesehen kann daher das 
Einbringen von Inf ormationen in ein Audiosignal in Abhangig- 
keit von der psychoakustischen Maskierungsschwelle als das 
Ubertragen eines Datensignals liber einen Kanal mit stark va- 
riierender Storenergie betrachtet werden, wobei das Audiosi- 
gnal, d. h. das Musiksignal, als Storsignal aufgefaBt wird. 

Fig. 1 zeigt ein Blockdiagramm einer erf indungsgemaBen Vor- 
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richtung bzw. eines erf indungsgemaBen Verfahrens zum Ein- 
bringen von Inf ormationen in einen Datenstrom, der Spektral- 
werte aufweist, die ein Kurzzeitspektrum eines Audiosignals 
darstellen. Der Datenstrom, der am Eingang eines Daten- 
strom-Demultiplexers 10 anliegt, wird, wenn er gemaB dem er- 
wahnten MPEG-AAC-Standard verarbeitet ist, zunachst allge- 
mein in Spektralwerte auf einer Leitung 12 und Seiteninfor- 
mationen auf einer Leitung 14 zerlegt, wobei von den Seiten- 
inf ormationen hier die Skalenf aktoren speziell genannt sei- 
en. Die Spektralwerte, die hinter dem Demultiplexer 10 noch 
Entropie-codiert sind, werden dann einem Entropie-Decodierer 
16 zugeflihrt und dann einem inversen Quantisierer 18, der 
unter Verwendung der quantisierten Spektralwerte und der da- 
zu gehorigen Skalenf aktoren, die iiber die Leitung 14 dem 
inversen Quantisierer 18 zu Verfiigung gestellt werden, die 
Spektralwerte des Audiosignals erzeugt, die das Kurzzeit- 
spektrum desselben darstellen. Die Spektralwerte werden dann 
in eine Wasserzeicheneinrichtung 20 eingespeist, die Sum- 
men-Spektralwerte erzeugt, die das Kurzzeitspektrum des Au- 
diosignals und dariiber hinaus die einzubringenden Informa- 
tionen umfassen. Diese Summen-Spektralwerte werden dann 
wieder in einen Quantisierer 22 gespeist und in einem daran 
anschlieBenden Entropie-Codierer 24 Entropie-codiert, urn 
schlieBlich einem Datenstrom-Multiplexer 2 6 zugeflihrt zu 
werden, der auch wieder die notigen Seiteninf ormationen, wie 
z. B. die Skalenf aktoren, erhalt. Am Ausgang des Multiple- 
xers 2 6 liegt dann ein verarbeiteter Datenstrom vor, der 
sich vom Datenstrom am Eingang des Demultiplexers 10 darin 
unter scheidet, daB er nun ein Wasserzeichen hat, d. h. daB 
in ihn Inf ormationen eingebracht worden sind. 

Bevor naher auf Fig. 2 eingegangen wird, die eine detail- 
liertere Darstellung der Wasserzeicheneinrichtung 20 auf- 
weist, sei zum Verstandnis auf einen MPEG-2 AAC-Audiocodie- 
rer eingegangen, wie er beispielsweise im Anhang B des Stan- 
dard ISO/IEC 13818-7: 1997(E) als informativer Teil be- 
schrieben ist. Einem solchen Codierer liegt grundsatzlich 
die Idee zugrunde, das Quantisierungsrauschen unter die 
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sogenannte psychoakustische Maskierungsschwelle zu bringen, 
d. h. zu verstecken. Zur Transformation der Audio-Abtastwer- 
te in den Frequenzbereich, d. h. zum Erzeugen der spektralen 
Darstellung des Audiosignals wird eine Analysef ilterbank 
eingesetzt, die als kritisch-unterabgetastete DCT (DCT = 
diskrete Cosinustransf ormation) realisiert ist, und die ei- 
nen uberlappungsgrad von 50% hat. Ihr Zweck besteht darin, 
eine spektrale Darstellung des Eingangssignals zu schaffen, 
das schlieBlich quantisiert und codiert wird. Zusammen mit 
einer entsprechenden Filterbank im Decodierer entsteht somit 
ein Synthese/Analyse-System. 

Das psychoakustische Modell, das in solchen Codierern ver- 
wendet wird, basiert auf dem psychoakustischen Phanomen der 
Maskierung . Sowohl Frequenzbereichsmaskierungsef f ekte als 
auch Zeitbereichmaskierungsef f ekte konnen dabei modelliert 
werden. Das psychoakustische Modell liefert einen Schatzwert 
fiir "Rausch"-Energie, die dem urspriinglichen Audiosignal 
hinzugefugt werden kann, ohne daB horbare Storungen auftre- 
ten. Diese maximal zulassige Energie wird als psychoakusti- 
sche Maskierungsschwelle bezeichnet. 

Der Quantisierer 22 sowie der Codierer 2 4 in Fig. 1 werden 
im nachf olgenden beschrieben. Typischerweise wird mehr als 
eine Spektrallinie mit derselben Quantisierer-SchrittgroBe 
quantisiert. Daher werden mehrere benachbarte Spektrallinien 
in sogenannte Skalenf aktorbander gruppiert. Der Quantisierer 
optimiert die QuantisiererschrittgroBe fiir jedes Skalenfak- 
torband. Die QuantisiererschrittgroBe wird so bestimmt, daB 
der Quantisierungsf ehler unter oder gleich der berechneten 
psychoakustischen Maskierungsschwelle ist, um sicherzustel- 
len, daB das Quantisierungsrauschen unhorbar ist. Es ist zu 
sehen, daB zwei Begrenzungen beriicksichtigt werden mussen, 
zwischen denen ein KompromiB gefunden werden muB. Einerseits 
sollte der Bitverbrauch so niedrig als moglich gehalten wer- 
den, um hohe Kompressionsverhaltnisse , d. h. einen hohen Co- 
diergewinn, zu erreichen. Andererseits muB sichergestellt 
werden, daB das Quantisierungsrauschen unter der psychoaku- 
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stischen Maskierungsschwelle ist, damit im codierten und 
wieder decodierten Audiosignal keine Storungen horbar sind. 
Typischerweise wird dieses Optimierungsverf ahren in einer 
iterativen Schleife berechnet. Das Resultat dieser Schleife 
ist eine QuantisiererschrittgroBe , die mit einem Skalenf ak- 
tor fiir ein Skalenf aktorband eindeutig korrespondiert . An- 
ders ausgedruckt werden die Spektralwerte eines Skalenfak- 
torbandes mit einer QuantisiererschrittgroBe quantisiert, 
die dem fur das Skalenf aktorband maBgeblichen Skalenfaktor 
eindeutig zugeordnet ist. Das heiBt, daB zwei verschiedene 
Skalenf aktoren auch zwei verschiedene Quantisiererschritt- 
groBen zur Folge haben konnen. 

Der Bitstrom wird durch einen Bitstrommultiplexer zusammen- 
gesetzt, der im wesentlichen Formatierungsauf gaben erfiillt. 
Der Datenstrom, der im Falle eines Binarsystems ein Bitstrom 
ist, enthalt somit die quantisierten und codierten Spektral- 
werte oder Spektralkoef f izienten sowie die Skalenf aktoren 
und weitere Seiteninf ormationen, die im erwahnten MPEG-AAC- 
Standard detailliert dargestellt und erlautert sind. 

Fig. 2 zeigt ein detaillierteres Blockdiagramm der Wasser- 
zeicheneinrichtung 20 von Fig. 1. An einer Quelle 30 fiir 
Inf ormationseinheiten werden Inf ormationseinheiten, vorzugs- 
weise in Form von Bits, einer Einrichtung 32 zum Spreizen 
zugefiihrt. Die Einrichtung 32 zum Spreizen basiert grund- 
satzlich auf einer Spread-Spektrum-Modulation, die insbeson- 
dere unter Verwendung einer Pseudo-Noise-Spreizsequenz bei 
einer Korrelation im Wasserzeichenextraktor giinstig ist. Die 
Inf ormationen werden Bit fiir Bit mit der Spreizsequenz be- 
aufschlagt. Das Beauf schlagen findet vorzugsweise so statt, 
daB fiir ein Inf ormationsbit mit einem logischen Pegel von +1 
die Spreizsequenz unverandert am Ausgang der Einrichtung 32 
erzeugt wird, wahrend fiir ein Inf ormationsbit mit einem lo- 
gischen Pegel von 0, was beispielsweise einem Spannungspegel 
von -1 entsprechen kann, die umgekehrte Spreizsequenz am 
Ausgang der Einrichtung 32 erzeugt wird. Damit entsteht ein 
" Zeitsignal" am Ausgang der Einrichtung 32, das die ge- 
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spreizten Informationen aus der Quelle 30 flir Informationen 
enthalt. Dieses gespreizte Inf ormationssignal wird dann 
durch eine Einrichtung 34 zum Transf ormieren in seine spek- 
trale Darstellung uberfiihrt, die ein FFT-Algorithmus , eine 
MDCT, etc., aber auch eine Filterbank sein kann. Die spek- 
trale Darstellung des gespreizten Inf ormationssignals wird 
in einer Einrichtung 3 6 gewichtet, um dann mit den Spektral- 
werten in einer Einrichtung 3 8 summiert zu werden, derart, 
dafl am Ausgang der Einrichtung 3 8 die Summen-Spektralwerte 
anliegen, die dann bezugnehmend auf Fig. 1 quantisiert (22) 
und codiert (24) werden konnen, um dem Bitstrom-Multiplexer 
26 zugefiihrt zu werden. Die Wasserzeicheneinrichtung 20 ent- 
halt ferner eine Einrichtung 4 0 zum Ermitteln der maskierba- 
ren Storenergie fiir das Kurzzeitspektrum, das durch die 
Spektralwerte gegeben ist. 

Es sei darauf hingewiesen, daB die Einrichtung 34 zum Trans- 
formieren des gespreizten Inf ormationssignals vorzugsweise 
eine Spektraltransf ormation durchfuhrt, die der dem Daten- 
strom am Eingang des Demultiplexers 10 (Fig. 1) zugrunde 
liegenden Transformation entspricht. Das heiBt, daB die Ein- 
richtung 34 zum Transf ormieren vorzugsweise dieselbe modifi- 
zierte diskrete Cosinustransf ormation durchfuhrt, die ur- 
spriinglich zum Erzeugen des nicht-verarbeiteten Datenstroms 
verwendet wurde. Dies ist ohne weiteres moglich, da Informa- 
tionen, wie z. B. Fenstertyp, Fensterform, Fensterlange 
usw. , als Seiteninf ormationen im Bitstrom iibertragen werden. 
Diese Verknlipfung ist durch die in Fig. 2 gestrichelt dar- 
gestellte Linie vom Bitstrom-Demultiplexer 10 (Fig. 1) ange- 
deutet . 

Wie es bereits bezugnehmend auf Fig. 1 ausgefiihrt worden 
ist, werden die Summen-Spektralwerte nach der Addition im 
Summierer 38 wieder einer Quantisierung und Codierung unter- 
zogen. Hier stellt sich die Frage, wie das Quantisiererin- 
tervall, d. h. die QuantisiererschrittgroBe , auf die bereits 
eingegangen worden ist, bestimmt werden soli, d. h. ob die 
Iterationen erneut durchgefiihrt werden miissen, oder ob dar- 
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auf verzichtet werden kann. Aufgrund der Tatsache, daB die 
Wasserzeichenenergie im Vergleich zur Audiosignalenergie ub- 
licherweise sehr klein ist, konnen vorzugsweise dieselben 
Skalenf aktoren wie im urspriinglichen Bitstrom eingesetzt 
werden. Dies ist in Fig. 1 durch die Verbindungslinie 14 vom 
Demultiplexer 10 zum Multiplexer 26 dargestellt. Das heiBt, 
daB das Quantisieren durch den Quantisierer 22 wesentlich 
einfacher durchgefiihrt werden kann, da es nicht mehr notwen- 
dig ist (aber dennoch moglich ist), die Iterationsschleif en 
auszuf iihren, urn einen optimalen KompromiB zwischen Bitrate 
und QuantisiererschrittgroBe zu bestimmen. Stattdessen wer- 
den vorzugsweise einfach die bereits bekannten Skalenfakto- 
ren verwendet. 

Im nachf olgenden wird auf verschiedene Moglichkeiten einge- 
gangen, urn die durch das Kurzzeitspektrum maskierbare Stor- 
energie zu ermitteln, die beim Gewichten der spektralen Dar- 
stellung des gespreizten Inf ormationssignals benotigt wird. 
Hierzu existieren verschiedene Moglichkeiten, die nachfol- 
gend bezugnehmend auf die Fig. 3a-3d erlautert sind. 

In Fig. 3a wird ein psychoakustisches Modell eingesetzt, um 
unter Verwendung der Spektralwerte des Audiosignals die psy- 
choakustische Maskierungsschwelle des entsprechenden Kurz- 
zeitspektrums zu errechnen. Aufgrund der Tatsache, daB psy- 
choakustische Modelle in der Literatur und dem erwahnten 
Standard beschrieben sind, sei hier lediglich erwahnt, daB 
vorzugsweise psychoakustische Modelle verwendet werden kon- 
nen, die ohnehin mit Spektraldaten arbeiten bzw. eine 
Zeit/Frequenz-Transf ormation beinhalten. In diesem Fall ist 
das psychoakustische Modell zum urspriinglichen psychoaku- 
stischen Modell, das einem jedem Codierer zugrunde liegt, 
darin vereinfacht, daB dasselbe gleich mit Spektralwerten 
"gefuttert" werden kann, so daB uberhaupt keine Fre- 
quenz/Zeit-Transf ormation im psychoakustischen Modell erfor- 
derlich ist. Das psychoakustische Modell schlieBlich wird 
die psychoakustische Maskierungsschwelle fur das Kurzzeit- 
spektrum ausgeben, derart, daB im Block 36 (Fig. 2) das 
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Spektrum des gespreizten Inf ormationssignals so geformt 
werden kann, daB es in jedem Skalenf aktorband eine Energie 
hat, die gleich der psychoakustischen Maskierungsschwelle 
bzw. unterhalb der psychoakustischen Maskierungsschwelle in 
diesem Skalenf aktorband ist. Es sei darauf hingewiesen, daB 
die psychoakustische Maskierungsschwelle eine Energie ist, 
wobei es angestrebt wird, daB die spektrale Darstellung des 
Inf ormationssignals moglichst gleich der psychoakustischen 
Maskierungsschwelle ist, urn die Inf ormationen in das Audio- 
signal durch moglichst viel Energie einzubringen, urn in ei- 
nem Extraktor des Wasserzeichens moglichst gute Korrelati- 
onsspitzen zu erhalten. 

Die in Fig. 3a gezeigte erste Moglichkeit hat den Vorteil, 
daB die psychoakustische Maskierungsschwelle sehr genau be- 
rechnet werden kann, und daB dieses Verfahren mit ublichen 
Datenstromen vollstandig kompatibel ist. Nachteilig darin 
ist jedoch die Tatsache, daB die Berechnung eines psycho- 
akustischen Modells Iiblicherweise relativ zeitaufwendig sein 
kann, so daB gesagt werden kann, daB diese Moglichkeit zwar 
sehr genau und interoperabel ist, jedoch relativ viel Zeit 
benotigt . 

Eine weitere Moglichkeit, die in Fig. 3b gezeigt ist, urn die 
psychoakustisch maskierbare Storenergie zu erhalten, besteht 
darin, daB im Codierer, der den Datenstrom am Eingang des 
Demultiplexers 10 (Fig. 1) erzeugt hat, die psychoakustische 
Maskierungsschwelle fur jedes Kurzzeitspektrum in den Bit- 
strom geschrieben wird, derart, daB die erf indungsgemaBe 
Vorrichtung zum Einbringen von Inf ormationen in einen Daten- 
strom lediglich die psychoakustische Maskierungsschwelle fur 
jedes Kurzzeitspektrum aus den Seiteninf ormationen des Da- 
tens troms zu extrahieren braucht (40b), urn die psychoaku- 
stische Maskierungsschwelle zur Einrichtung 36 zum Gewichten 
der spektralen Darstellung des gespreizten Inf ormationssi- 
gnals (Fig. 2) auszugeben. Diese Moglichkeit hat den Vor- 
teil, daB sie ebenfalls sehr genau ist und darliberhinaus 
sehr schnell ist, da lediglich zugegriffen und nicht gerech- 
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net werden muB, es wird jedoch die Interoperabilitat beein- 
trachtigt, d. h. Standardbitstrome konnen nicht mehr nach- 
traglich mit Wasserzeichen versehen werden, da sie keine 
psychoakustischen Maskierungsschwellen enthalten . Man 
benotigt hier somit einen erf indungsgemaBen Spezialcodierer , 
wie er in Fig. 4 beschrieben ist. 

In Fig. 3c ist eine weitere Moglichkeit zum Ermitteln der 
psychoakustisch maskierbaren Storenergie gezeigt. Hier wird 
die psychoakustisch maskierbare Storenergie unter Verwendung 
der Spektralwerte und der Skalenf aktoren berechnet (40c). Es 
wird davon ausgegangen, daB der urspriingliche Codierer, der 
den Datenstrom, in den das Wasserzeichen eingebracht werden 
soli, erzeugt hat, die durch die Quantisierung eingefiihrte 
Storenergie bereits so gewahlt hat, daB sie unter der psy- 
choakustischen Maskierungsschwelle bzw. auf der psychoaku- 
stischen Maskierungsschwelle liegt. Dieses Verfahren ist 
zwar etwas ungenauer als das direkte Berechnen der psycho- 
akustischen Maskierungsschwelle, ist jedoch im Vergleich zum 
direkten Berechnen der psychoakustischen Maskierungsschwelle 
sehr schnell und halt gleichzeitig die Interoperabilitat 
aufrecht, d. h. arbeitet auch mit Standard-Bitstromen zu- 
sammen . 

Im nachf olgenden wird darauf eingegangen, wieso diese dritte 
Moglichkeit etwas ungenauer ist. Es existieren verschiedene 
Codiereransatze, die sich beispielsweise in den verwendeten 
Quantisiererimplementationen unterscheiden . Wie es bereits 
ausgefiihrt worden ist, darf ein Quantisierer die vorge- 
schriebene Bitrate nicht uberschreiten. Andererseits soli er 
die psychoakustische Maskierungsschwelle einhalten. So kann 
der Fall auftreten, daB ein Quantisierer die zur Verfugung 
stehende Bitrate gar nicht benotigt, da beispielsweise eine 
hohe Bitrate vor liegt, oder wenn ein Musikstiick zu codieren 
ist, bei dem der Codiergewinn sehr hoch ist, wie es bei- 
spielsweise bei tonalen Stiicken der Fall ist. Bestimmte 
Quantisierer arbeiten hier so, daB sie feiner als notig 
quantisieren und somit wesentlich weniger Storenergie durch 
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Quantisieren in das Audiosignal einflihren, als sie durften. 
Es ist daher einsichtig, daB die erf indungsgemaBe Vorrich- 
tung, wie sie in Fig. 3c beschrieben ist, davon ausgeht, daB 
die psychoakustische Maskierungsschwelle wesentlich geringer 
ist als sie tatsachlich sein durfte, was schlieBlich dazu 
fuhrt, daB die spektrale Darstellung des gespreizten Infor- 
mationssignals nach dem Gewichten wesentlich weniger Energie 
hat als sie haben dtirfte, wodurch nicht die ganze verfugbare 
Energie, die das Wasserzeichen haben durfte, ausgenutzt 
wird. Dies wurde jedoch nicht der Fall sein, wenn ein Quan- 
tisierer eingesetzt wird, der immer die maximal zulassige 
Storenergie durch das Quantisieren einfiihrt und eventuell 
verbleibende Bits nicht beschreibt bzw. mit irgendwelchen 
bei einer Decodierung nicht beriicksichtigten Werten fiillt. 
In diesem Fall ware die in Fig. 3c dargestellte Option ge- 
nauso genau wie die beiden ersten Moglichkeiten. Im Falle 
des variablen Quantisierers entsteht jedoch auch eine va- 
riable Bitrate. In diesem Fall konnte die Wasserzeichenein- 
richtung auch dazu verwendet werden, die Bitrate konstant zu 
machen, durch Auffullen von Bits, die das Wasserzeichen dar- 
stellen, so daB die konstante Bitrate gleich der hochsten 
Bitrate des urspriinglichen Datenstroms mit variabler Bitrate 
ist. 

Im nachf olgenden wird darauf eingegangen, wie unter Verwen- 
dung der Spektralwerte und der Skalenf aktoren und dariiber- 
hinaus der Charakteristik des Quantisierers die Storenergie 
berechnet wird, die durch Quantisieren in ein Skalenf aktor- 
band eingefiihrt worden ist. Hierbei gilt folgende Gleichung 
fur die Energie Fxi des Quantisierungsf ehlers flir einen 
Spektralwert x-l : 

|Fxi| 2 = (q 2a /12a 2 ) • x i 2 ( 1 - a ) 

Es sei darauf hingewiesen, daB diese Gleichung flir ungleich- 
maBige Quantisierer gilt, wie sie beispielsweise bei dem 
Standard MPEG-AAC vorgesehen sind. Fur gleichmaBige Quanti- 
sierer wlirde der zweite Term einfach wegf alien, wenn fiir a = 
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1 gesetzt wird. 

Der in der Gleichung auftretende Faktor q hangt mit der 
QuantisiererschrittgroBe QS f olgendermaBen zusammen : 

q = 2QS/4 

Der Faktor a lautet flir den MPEG-AAC-Quantisierer 3/4. 

Die Energie des Quantisierungsf ehlers in einem Skalenfak- 
torband ist dann die Summe der | Fxi | 2 in einem Skalenf ak- 
torband. Diese Energie muB, damit sie nicht horbar ist, 
kleiner oder gleich der psychoakustischen Maskierungsschwel- 
le in diesem Skalenf aktorband sein. Es sei darauf hingewie- 
sen, daJ3 die psychoakustische Maskierungsschwelle in einem 
Skalenf aktorband konstant ist, jedoch fur unterschiedliche 
Skalenf aktorbander unterschiedliche Werte einnimmt. Fur die 
Energie des Quantisierungsf ehlers x m j_ n ergibt sich folgender 
Wert: 

xmin = 2[ (2 3/8# Q s )/(27/4) • *i 1/2 ] 
i 

Der Index i soil anzeigen, da/3 immer iiber die Spektralwerte 
in einem Skalenf aktorband summiert werden muJ3 f da die psy- 
choakustische Maskierungsschwelle ublicherweise als Energie 
fur dieses Skalenf aktorband gegeben ist. 

Es sei darauf hingewiesen, daB in den Seiteninf ormationen 
des Datenstroms nicht direkt die QuantisiererschrittgroBen 
flir die einzelnen Skalenf aktoren gegeben sind f daB jedoch 
gemaB Vereinbarung, wie sie im AAC-Standard aufgefiihrt ist, 
die QuantisiererschrittgroBe , die jedem Skalenf aktor zuge- 
ordnet ist f eindeutig abgeleitet werden kann. Dariiberhinaus 
muB die Charakteristik des im urspriinglichen Codierer zum 
Erzeugen des Datenstroms verwendeten Quantisierers bekannt 
sein, d. h w wenn er ein ungleichmaBiger Quantisierer ist, 
der Kompress ions faktor desselben, der beim AAC-Standard der 
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Faktor 3/4 ist. 

Die Spektrallinien der spektralen Darstellung des gespreiz- 
ten Inf ormationssignals werden nun, wie es bereits ausge- 
fuhrt worden ist, so gewichtet, daB sie zusammen eine Ener- 
gie haben, die kleiner oder gleich der psychoakustisch mas- 
kierbaren Storenergie, und im Falle der in Fig. 3c beschrie- 
benen Option gleich der Storenergie des Quantisierungspro- 
zesses ist. 

Wenn der Fall betrachtet wird, daB die durch die Quanti- 
sierung in Skalenf aktorband eingefiihrte Storenergie bereits 
gleich der psychoakustischen Maskierungsschwelle ist, und 
dann dieselbe Energie noch einmal, jedoch nun fur die ein- 
zubringenden Inf ormationen in das Audiosignal eingebracht 
wird, so ist zu sehen, daB die insgesamte Energie, d. h. die 
Storenergie aufgrund des Quantisierens und die Energie fur 
die Inf ormationen, die psychoakustische Maskierungsschwelle 
uberschreiten konnen, was zu horbaren Qualitatsverlusten 
fiihren kann, die jedoch aufgrund der Begrenzung der Energie 
der Inf ormationen auf die psychoakustische Maskierungs- 
schwelle klein sein werden, da die psychoakustische Maskie- 
rungsschwelle um einen Faktor groBer als 1 verletzt wird. 
Wie es bereits ausgefuhrt worden ist, wird eine Wasserzei- 
chenenergie in der GroBenordnung der psychoakustischen Mas- 
kierungsschwelle dann zu Storungen fiihren, wenn auch das 
Quantisierungsrauschen bereits in der GroBenordnung der 
psychoakustischen Maskierungsschwelle liegt. Es wird daher 
bevorzugt, die psychoakustisch maskierbare Storenergie, mit 
der gewichtet wird, so zu wahlen, daB die gesamte Storener- 
gie (Quantisierungsrauschen plus "Storenergie" der Informa- 
tionen) kleiner als das 1,5-fache der psychoakustischen 
Maskierungsschwelle ist, wobei noch kleinere Faktoren bis 
nahe 1,0 moglich sind. Es sei darauf hingewiesen, daB auch 
kleine Faktoren sinnvoll sind, da aufgrund der Spreizung des 
Inf ormationssignals bereits eine hohe Inf ormationsredundanz 
eingefiihrt worden ist. 



WO 01/26262 



- 25 - 



PCT/EP00/09771 



Anders ausgedruckt wird das Einbringen eines Wasserzeichens 
in ein Audiosignal, dessen psychoakustische Maskierungs- 
schwelle bereits vollstandig durch Storenergie aufgrund des 
Quantisierens verbraucht ist, zu einer geringen Verschlech- 
terung der Audioqualitat fiihren, die jedoch durch die Vor- 
teile des Wasserzeichens leicht aufgehoben wird. 

Urn diese Beeintrachtigung zu uberwinden, kann das in Fig. 3d 
gezeigte Konzept eingesetzt werden, bei dem von vorneherein 
der Quantisierer im Codierer derart gesteuert wird, daB die 
durch die Quantisierung eingefuhrte Storenergie durch Ein- 
stellen der QuantisiererschrittgroBe so gewahlt wird, daB 
sie immer einen vorbestimmten Betrag unter der psychoakusti- 
schen Maskierungsschwelle bleibt. Mit anderen Worten arbei- 
tet ein Audiocodierer fur ein solches Konzept so, daB er 
f einer quantisiert als notig, wodurch ein Energiepotential 
fiir die einzubringenden Inf ormationen, d. h. flir das Wasser- 
zeichen freibleibt. Dies hat den Vorteil, daB ein Wasserzei- 
chen vollstandig ohne Qualitatsverlust eingebracht werden 
kann, wenn beim Ermitteln der psychoakustisch maskierbaren 
Storenergie (40d) die ja nun um einen vorbestimmten Betrag 
kleiner als die psychoakustische Maskierungsschwelle ist, in 
der Einrichtung 40d der vorbestimmte Betrag berucksichtigt 
wird, so daB die Storenergie aufgrund des Quantisierens und 
die Energie aufgrund der einzubringenden Inf ormationen zu- 
sammen gleich oder kleiner als die psychoakustische Maskie- 
rungsschwelle sind. Da die gewichteten Spektralwerte des ge- 
spreizten Inf ormationssignals mit den Spektralwerten des 
Audiosignals summiert werden, sind die Spektralwerte des In- 
f ormationssignals nach ihrer Gewichtung gleich oder kleiner 
als der vorbestimmte Betrag. 

Diese Option hat den Vorteil, daJ3 ein Wasserzeichen ohne 
jeglichen Qualitatsverlust in einen Datenstrom eingebracht 
werden kann, daJ3 jedoch einerseits die Interoperabilitat 
leidet, und da der Quantisierer im Codierer immer um den 
vorbestimmten Betrag unter der psychoakustischen Maskie- 
rungsschwelle bei der Einstellung der Storenergie durch das 
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Quantisieren bleiben muB. Andererseits ist diese Moglichkeit 
in der Implementation sehr effizient, da kein psychoakusti- 
sches Modell berechnet werden muB. 

Im nachf olgenden wird auf Fig. 4 eingegangen, wobei Fig, 4 
zwei Moglichkeiten fiir einen Codierer fiir Audiosignale 
zeigt, um einen Datenstrom zu erzeugen, der erf indungsgemaB 
besonders fur ein Einbringen von Inf ormationen geeignet ist. 
Ein solcher Audiocodierer kann grundsatzlich so aufgebaut 
sein, wie ein bekannter Audiocodierer,, derart, daB er eine 
Einrichtung 50 zum Erzeugen einer spektralen Darstellung des 
Audiosignals , einen Quantisierer 52 zum Quantisieren der 
spektralen Darstellung des Audiosignals , einen Entropie-Co- 
dierer 54 zum Entropie-Codieren der quantisierten Spektral- 
werte und schlieBlich einen Datenstrommultiplexer 56 umfaBt. 
Der Datenstrom, der von dem Datenstrom-Multiplexer 5 6 ausge- 
geben wird, erhalt von einem ebenfalls bekannten psychoaku- 
stischen Modell 58 liber den Datenstrommultiplexer 56 die 
psychoakustische Maskierungsschwelle, die im Gegensatz zu 
einem bekannten Audiocodierer nun in den Datenstrom ge- 
schrieben wird, derart, daB die erf indungsgemaBe Vorrichtung 
zum Einbringen von Inf ormationen einfach auf die psychoaku- 
stische Maskierungsschwelle in dem Datenstrom zugreifen 
kann. Der in Fig. 4 durch die durchgezogene Linie 60 darge- 
stellte Codierer ist somit das Gegenstiick zu der in Fig. 1 
gezeigten Vorrichtung zum Einbringen von Inf ormationen, die 
als Einrichtung zum Ermitteln der maskierbaren Storenergie 
die in Fig. 3b gezeigte Option enthalt. 

In Fig. 4 gestrichelt ist die Audiocodierermoglichkeit gemaB 
der vorliegenden Erfindung dargestellt, die zu der in Fig. 
3d gezeigten Option fiir die Einrichtung 4 0 zum Ermitteln der 
maskierbaren Storenergie in der in Fig. 1 gezeigten erf in- 
dungsgemaBen Vorrichtung korrespondiert . Hierbei wird der 
Quantisierer durch einen vorbestimmten Betrag derart gesteu- 
ert, daB die durch die Quantisierung eingefiihrte Storenergie 
um den vorbestimmten Betrag unterhalb der psychoakustischen 
Maskierungsschwelle ist, wobei der Wert des vorbestimmten 
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Betrags iiber die gestrichelte Leitung 62 in den Datenstrom- 
multiplexer 56 eingespeist wird, urn in dem Datenstrom ent- 
halten zu sein, derart, dafl die erf indungsgemaBe Vorrichtung 
zum Einbringen von Informationen auf den vorbestimiuten Be- 
trag zugreifen kann, urn entsprechend gewichten zu konnen 
(Block 36 in Fig. 2). 
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Paten tanspruche 

1. Verfahren zum Einbringen von Informationen in einen Da- 
tenstrom, der Daten liber Spektralwerte aufweist, die 
ein Kurzzeitspektrum eines Audiosignals darstellen, mit 
f olgenden Schritten : 

Verarbeiten (10, 16 , 18) des Datenstroms, um die Spek- 
tralwerte des Kurzzeitspektrums des Audiosignals zu er- 
halten; 

Beauf schlagen (32) der Informationen mit einer Spreiz- 
sequenz, um ein gespreiztes Inf ormationssignal zu er- 
halten; 

Erzeugen (34) einer Spektraldarstellung des gespreizten 
Inf ormationssignals , um ein spektrales gespreiztes In- 
f ormationssignal zu erhalten; 

Ermitteln (40a; 40b; 40c; 40d) einer psychoakustisch 
maskierbaren Storenergie als Funktion der Frequenz fur 
das Kurzzeitspektrum des Audiosignals , wobei die psy- 
choakustisch maskierbare Storenergie kleiner oder 
gleich der psychoakustischen Maskierungsschwelle des 
Kurzzeitspektrums ist ; 

Gewichten (36) des spektralen gespreizten Informations- 
signals unter Verwendung der ermittelten Storenergie , 
um ein gewichtetes Inf ormationssignal zu erzeugen, bei 
dem die Energie der eingebrachten Informationen im we- 
sentlichen gleich oder unterhalb der psychoakustischen 
Maskierungsschwelle liegt ; 

Summieren (38) des gewichteten Inf ormationssignals mit 
den Spektralwerten des Kurzzeitspektrums des Audiosi- 
gnals , um Summen-Spektralwerte zu erhalten, die das 
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Kurzzeitspektrum des Audiosignals und die Inf ormationen 
umfassen; und 

Verarbeiten (22, 24, 26) der Summen-Spektralwerte , urn 
einen verarbeiteten Datenstrom zu erhalten, der die 
Daten liber die Spektralwerte des Kurzzeitspektrums des 
Audiosignals und die einzubringenden Inf ormationen um- 
faflt. 

2. Verfahren nach Anspruch 1, bei dem der Datenstrom als 
Daten uber Spektralwerte quantisierte Spektralwerte 
enthalt, wobei der Schritt des Verarbeitens des Daten- 
stroms folgenden Teilschritt aufweist: 

inverses Quantisieren (18) der quantisierten Spektral- 
werte, urn die Spektralwerte zu erhalten; und 

bei dem der Schritt des Verarbeitens der Summen-Spek- 
tralwerte folgende Schritte aufweist: 

Quantisieren (22) der Summen-Spektralwerte, urn quanti- 
sierte Summen-Spektralwerte zu erhalten; und 

Bilden (26) des verarbeiteten Datenstroms unter Verwen- 
dung der quantisierten Summen-Spektralwerte* 

3. Verfahren nach Anspruch 2, bei dem die quantisierten 
Spektralwerte im Datenstrom Entropie-codiert sind, wo- 
bei der Schritt des Verarbeitens des Datenstroms fol- 
genden Teilschritt aufweist: 

Entropie-Decodieren (18) der Entropie-codierten Spek- 
tralwerte, urn die quantisierten Spektralwerte zu erhal- 
ten; und 

bei dem der Schritt des Verarbeitens der Summen-Spek- 
tralwerte folgenden Schritt aufweist: 
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Entropie-Codieren (24) der quantisierten Summen-Spek- 
tralwerte . 

4. Verfahren nach einem der vorhergehenden Anspriiche, bei 
dem der Schritt des Ermittelns der psychoakustisch mas- 
kierbaren Storenergie folgenden Schritt aufweist: 

Berechnen (40a) der psychoakustischen Maskierungs- 
schwelle als Funktion der Frequenz unter Verwendung 
eines psychoakustischen Modells, das basierend auf den 
Spektralwerten des Audiosignals arbeitet. 

5* Verfahren nach einem der Ansprliche 1 bis 3, bei dem im 
Datenstrom als Seiteninf ormationen eine beim Erzeugen 
des Datenstroms verwendete Maskierungsschwelle als 
Funktion der Frequenz fur das Kurzzeitspektrum vor- 
handen ist, wobei der Schritt des Ermittelns folgenden 
Schritt aufweist: 

Extrahieren (40b) der psychoakustischen Maskierungs- 
schwelle aus dem Datenstrom, wobei die psychoakustisch 
maskierbare Storenergie gleich der psychoakustischen 
Maskierungsschwelle ist . 

6. Verfahren nach einem der Anspriiche 1 bis 3, bei dem der 
Datenstrom ferner Seiteninf ormationen aufweist, die 
Skalenf aktoren (14) beinhalten, mit denen die Spektral- 
werte vor dem Quantisieren in einem Audiocodierer grup- 
penweise multipliziert wurden, wobei der Schritt des 
Verarbeitens des Datenstroms ferner folgenden Teil- 
schritt aufweist: 

Extrahieren der Skalenf aktoren aus dem Datenstrom; und 

bei dem der Schritt des Ermittelns folgenden Schritt 
aufweist : 

Berechnen der beim Quantisieren im Audiocodierer ein- 
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gefuhrten Storenergie als Funktion der Frequenz unter 
Verwendung der Skalenf aktoren fur das Kurzzeitspektrum 
und unter Verwendung der Spektralwerte sowie unter 
Kenntnis eines im Audiocodierer verwendeten Quantisie- 
rers, wobei die eingebrachte Storenergie ein MaB fiir 
die psychoakustisch maskierbare Storenergie ist, die 
beim Gewichten verwendet wird. 

7. Verfahren nach Anspruch 6, bei dem der Datenstrom gemaB 
ISO/IEC 13818-7 (MPEG-2 AAC ) ausgebildet ist, und bei 
dem der Schritt des Schatzens der Storenergie folgende 
Schritte auf weist : 

Ermitteln eines Quantisierungsschritts fiir die Spek- 
tralwerte aus einem Skalenf aktorband unter Verwendung 
des diesem Skalenf aktorband zugeordneten Skalenf aktors ; 

Auswerten der folgenden Gleichung, urn die durch die 
Quantisierung eingeflihrte Storenergie fiir das Skalen- 
f aktorband zu erhalten, 

xmin = S[ (2 3/8 'Q s )/(27/4) • k l 1/2 ] 
i 

wobei x^ die i-te Spektrallinie in einem Skalenf aktor- 
band darstellt, wobei QS der Quantisierungsschritt fiir 
dieses Skalenf aktorband ist, und wobei xmin die durch 
die Quantisierung in das Skalenf aktorband eingeflihrte 
Storenergie ist; 

und bei dem der Schritt des Gewichtens (36) folgenden 
Schritt auf weist: 

Einstellen der Spektralwerte der spektralen Darstellung 
des gespreizten Inf ormationssignals in dem Skalenfak- 
torband so, daJ3 die Gesamtenergie der eingestellten 
Spektralwerte gleich der im Schritt des Auswertens er« 
haltenen Storenergie in diesem Skalenf aktorband ist. 
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8. Verfahren nach einem der Anspruche 1 bis 3, bei dem die 
Spektralwerte des Datenstroms derart quantisiert sind, 
daB die durch die Quantisierung eingefiihrte Storenergie 
um einen vorbestimmten Betrag kleiner als die psycho- 
akustische Maskierungsschwelle ist, und bei dem im 
Schritt des Ermittelns (40d) eine Energie bestimmt 
wird, die dem vorbestimmten Betrag entspricht; und 

bei dem im Schritt des Gewichtens (36) die Spektralwer- 
te der spektralen Darstellung des gespreizten Informa- 
tionssignals derart eingestellt werden, daB sie eine 
Energie haben, die dem vorbestimmten Betrag entspricht. 

9. Verfahren nach Anspruch 8, bei dem der Wert des vorbe- 
stimmten Betrags als Seiteninf ormationen in dem Daten- 
strom vorhanden ist, wobei im Schritt des Ermittelns 
(40d) der Wert fur den vorbestimmten Betrag aus den 
Seiteninf ormationen des Datenstroms extrahiert wird. 

10. Verfahren nach einem der vorhergehenden Anspruche, bei 
dem im Schritt des Verarbeitens der Summen-Spektralwer- 
te die gleichen Quantisierungsschrittweiten wie im ur- 
spriinglichen Datenstrom verwendet werden. 

11. Verfahren zum Codieren eines Audiosignals mit folgenden 
Schritten : 

Erzeugen (50) eines Kurzzeitspektrums des Audiosignals, 
das eine Mehrzahl von Spektralwerten umfaBt; 

Berechnen der psychoakustischen Maskierungsschwelle des 
Audiosignals unter Verwendung eines psychoakustischen 
Modells (58); 

Quantisieren (52) der Spektralwerte unter Beriicksichti- 
gung der psychoakustischen Maskierungsschwelle, so da/3 
die durch die Quantisierung eingefiihrte Storenergie 
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gleich oder kleiner als die psychoakustische Maskie- 
rungsschwelle ist; und 

Bilden (56) eines Bitstroms, der Werte enthalt, die den 
quantisierten Spektralwerten des Kurzzeitspektrums ent- 
sprechen, und der dariiberhinaus die berechnete psycho- 
akustische Maskierungsschwelle (60) fiir das Kurzzeit- 
spektrum des Audiosignals aufweist. 

12. Verfahren zum Codieren eines Audiosignals, mit folgen- 
den Schritten: 

Erzeugen (50) eines Kurzzeitspektrums des Audiosignals, 
das eine Mehrzahl von Spektralwerten umfaBt; 

Berechnen der psychoakustischen Maskierungsschwelle des 
Audiosignals unter Verwendung eines psychoakustischen 
Modells (58) ; 

Quantisieren der Spektralwerte unter Beriicksichtigung 
der psychoakustischen Maskierungsschwelle, so daB die 
durch die Quantisierung eingefiihrte Storenergie urn ei- 
nen vorbestimmten Betrag kleiner als die psychoakusti- 
sche Maskierungsschwelle ist; 

Bilden (56) eines Bitstroms, der Werte enthalt, die den 
quantisierten Spektralwerten des Kurzzeitspektrums ent- 
sprechen. 

13. Verfahren nach Anspruch 12, bei dem im Schritt des Bil- 
dens ferner eine Anzeige fiir den Wert (62) des vorbe- 
stimmten Betrags in den Bitstrom aufgenommen wird. 

14. Vorrichtung zum Einbringen von Inf ormationen in einen 
Datenstrom, der Daten liber Spektralwerte aufweist, die 
ein Kurzzeitspektrum eines Audiosignals darstellen, mit 
folgenden Merkmalen: 
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einer Einrichtung zum Verarbeiten (10, 16, 18) des Da- 
tenstroms, urn die Spektralwerte des Kurzzeitspektrums 
des Audiosignals zu erhalten; 

einer Einrichtung zum Beauf schlagen (32) der Informa- 
tionen mit einer Spreizsequenz , urn ein gespreiztes In- 
f ormationssignal zu erhalten; 

einer Einrichtung zum Erzeugen (34) einer Spektraldar- 
stellung des gespreizten Inf ormationssignals , urn ein 
spektrales gespreiztes Inf ormationssignal zu erhalten; 

einer Einrichtung zum Ermitteln (40a; 40b; 40c; 40d) 
einer psychoakustisch maskierbaren Storenergie als 
Funktion der Frequenz fur das Kurzzeitspektrum des Au- 
diosignals, wobei die psychoakustisch maskierbare Stor- 
energie kleiner oder gleich der psychoakustischen Mas- 
kierungsschwelle des Kurzzeitspektrums ist; 

einer Einrichtung zum Gewichten (36) des spektralen ge- 
spreizten Inf ormationssignals unter Verwendung der er- 
mittelten Storenergie, um ein gewichtetes Informations- 
signal zu erzeugen, bei dem die Energie der einge- 
brachten Inf ormationen im wesentlichen gleich oder un- 
terhalb der psychoakustischen Maskierungsschwelle 
liegt ; 

einer Einrichtung zum Summieren (38) des gewichteten 
Informationssignals mit den Spektralwerten des Kurz- 
zeitspektrums des Audiosignals, um Summen-Spektralwerte 
zu erhalten, die das Kurzzeitspektrum des Audiosignals 
und die Inf ormationen umfassen; und 

einer Einrichtung zum Verarbeiten (22, 24, 26) der Sum- 
men-Spektralwerte, um einen verarbeiteten Datenstrom zu 
erhalten, der die Daten uber die Spektralwerte des 
Kurzzeitspektrums des Audiosignals und die einzubrin- 
genden Inf ormationen umfaBt. 
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15, Vorrichtung zum Codieren eines Audiosignals mit fol- 
genden Merkmalen: 

einer Einrichtung zum Erzeugen (50) eines Kurzzeitspek- 
trums des Audiosignals , das eine Mehrzahl von Spektral- 
werten umfai3t; 

einer Einrichtung zum Berechnen der psychoakustischen 
Maskierungsschwelle des Audiosignals unter Verwendung 
eines psychoakustischen Modells (58); 

einer Einrichtung zum Quantisieren (52) der Spektral- 
werte unter Berticksichtigung der psychoakustischen Mas- 
kierungsschwelle, so daJ3 die durch die Quantisierung 
eingefiihrte Storenergie gleich oder kleiner als die 
psychoakustische Maskierungsschwelle ist; und 

einer Einrichtung zum Bilden (56) eines Bitstroms, der 
Werte enthalt, die den quantisierten Spektralwerten des 
Kurzzeitspektrums entsprechen, und der darliberhinaus 
die berechnete psychoakustische Maskierungsschwelle 
(60) flir das Kurzzeitspektrum des Audiosignals auf- 
weist . 

16. Vorrichtung zum Codieren eines Audiosignals, mit fol- 
genden Merkmalen: 

einer Einrichtung zum Erzeugen (50) eines Kurzzeit- 
spektrums des Audiosignals, das eine Mehrzahl von Spek- 
tralwerten umfaJ3t; 

einer Einrichtung zum Berechnen der psychoakustischen 
Maskierungsschwelle des Audiosignals unter Verwendung 
eines psychoakustischen Modells (58); 

einer Einrichtung zum Quantisieren der Spektralwerte 
unter Berlicksichtigung der psychoakustischen Maskie- 
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rungsschwelle, so daJ3 die durch die Quantisierung ein- 
geflihrte Storenergie um einen vorbestimmten Betrag 
kleiner als die psychoakustische Maskierungsschwelle 
ist ; 

einer Einrichtung zum Bilden (56) eines Bitstroms, der 
Werte enthalt, die den quantisierten Spektralwerten des 
Kurzzeitspektrums entsprechen . 
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(57) Abstract: The invention relates to a method for introducing information into a data stream containing data related to spectral 
values which represent a short-term spectrum of an audio signal. According to said method, the data stream is first processed (10, 
16, 18), in order to obtain the spectral values for the short-term spectrum of the audio signal. In addition, the information to be 
introduced is subjected to a spread sequence (20) in order to obtain an expanded information signal which leads to the creation of a 
spectral representation of the expanded information signal (20). This representation is then weighted using a determined psychoa- 
coustic noise energy which can be masked (20), in order to generate a weighted information signal, in which the energy level of 
the introduced information is substantially equal to or lies below the psychoacoustic masking threshold. The weighted information 
signal and the spectral values for the short-term spectrum are subsequently totalled (20) and then re-processed (22, 24, 26) in order 
to obtain a processed data stream which comprises both the audio information and the information to be introduced. In order for the 
information to be introduced without having to pass into the time domain, the block raster which underlies the short-term spectrum 
is not infringed, so that the introduction of a watermark does not lead to a tandem encoding effect. 
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(57) Zusammenfassung: Ein erfindungsgemaBes Verfahren zum Einbringen von Informationen in einen Datenstrom, der Daten 
tiber Spektralwerte aufweist, die ein Kurzzeitspektrum eines Audiosignals darstellen, fiihrt zuerst eine Verarbeitung (10, 16, 18) 
des Datenstroms durch, um die Spektralwerte des Kurzzeitspektrums des Audiosignals zu erhalten. AuBerdem werden die einzu- 
bringenden Informationen mit einer Spreizsequenz beaufschlagt (20), um ein gespreiztes Informationssignal zu erhalten, woraufhin 
eine spektrale Darstellung des gespreizten Informations signals erzeugt wird (20), die dann mit einer ermittelten psychoakustisch 
maskierbaren Storenergie gewichtet wird (20), um ein gewichtetes Informationssignal zu erzeugen, bei dem die Energie der einge- 
brachten Informationen im Wesentlichen gleich oder unterhalb der psychoakustischen Maskierungsschwelle liegt. Das gewichtete 
Informationssignal und die Spektralwerte des Kurzzeitspektrums des Audiosignals werden dann summiert (20) und anschlieBend 
wieder verarbeitet (22, 24, 26), um einen verarbeiteten Datenstrom zu erhalten, der sowohl die Audioinformationen als auch die 
einzubringenden Informationen umfaBt. Dadurch, daB die einzubringenden Informationen in den Datenstrom eingebracht werden, 
ohne da6 in den Zeitbereich Ubergegangen werden muB, wird die Blockrasterung, die dem Kurzzeitspektrum zugrunde liegt, nicht 
angetastet, so daB das Einbringen eines Wasserzeichens zu keinen Tandem-Codiereffekten fuhrt. 
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